AI Engine(AIE)
AMD / Xilinx Versal 自适应 SoC 内置的 AI 加速阵列 — 最高 400 TOPS INT8 算力的 VLIW 向量处理器集群,定义"异构 SoC"AI 推理路线。
定义
AI Engine(简称 AIE)是 AMD / Xilinx Versal ACAP(Adaptive Compute Acceleration Platform)系列芯片中独立的硬核 AI 加速器模块,与 FPGA 可编程逻辑 PL 和 ARM CPU PS 并列存在,三者通过片上 NoC 网络互联。
AIE 由数十到数百个 VLIW(超长指令字)向量处理器单元组成阵列,每个单元支持 INT8 / INT16 / FP16 / Bfloat16 等多精度运算,专门加速深度学习的矩阵乘加、卷积、激活函数等核心算子。Versal AI Core 系列旗舰产品的 AI Engine 阵列峰值算力可达 400 TOPS INT8,与同时代 NVIDIA Jetson AGX Orin(275 TOPS)正面对标。
AIE 不通过 HDL 编程,而是用 C / C++ 算子代码 + 数据流图(dataflow graph) 描述,由 Vitis AI 工具链编译部署 — 学习曲线类似 GPU CUDA,区别于传统 FPGA 的 HDL 工作流。
技术细节
- 微架构:每个 AIE tile 是 32-bit VLIW + SIMD 标量处理器 + 本地数据存储(16-32KB)
- 互连:AIE tile 之间通过 AXI Stream 流式互联,构成 mesh 拓扑,便于流水线式数据流
- 算力:单 tile 数 TOPS,整阵列可达 100-400 TOPS(取决于产品型号)
- 精度:INT8 / INT16 / FP16 / Bfloat16,部分新版支持 FP32 累加
- 工艺:台积电 7nm(Versal 首代)→ 5nm(Versal Gen 2)
- 典型产品:AMD Versal AI Core 系列(VC1902 等)、Versal AI Edge 系列(边缘 AI)、Versal Premium 系列(数据中心顶配)
主要玩家
竞争对应方案:
- Intel Altera — AI Tensor Blocks(融入 FPGA 逻辑阵列,AI 原生路线)
- Achronix — Speedster7t 机器学习处理器(MLP)
- 国产 — 复旦微电 Phoenixcore(4-128 TOPS)、紫光国微 TPU IP(20 TOPS)
在 AI 产业链中的角色
AI Engine 是 FPGA 行业异构 SoC 路线的旗舰代表,定位与 GPU 形成功能互补:
- 优势:流水线数据流架构 → 低延迟(<5ms)、高确定性时延,适合实时推理(车载 ADAS、5G 基带)
- 劣势:编程门槛高(需同时掌握 Vitis AI + Vivado 双工具链),软件生态远不及 CUDA
典型应用场景:
- L4 级自动驾驶传感器融合(Versal AI Edge VE2302 等)
- 5G Massive MIMO 波束赋形(Versal AI Core + RFSoC)
- 数据中心 AI 推理(Alveo V70 卡,搭载 Versal HBM 系列)
- 工业机器视觉(Versal AI Edge 边缘版本)
AMD 收购 Xilinx 后把 AIE 整合进 ROCm 平台,试图与 GPU 形成"训练用 GPU、推理用 AIE"的全栈方案,但生态成熟度仍是关键瓶颈。
演进历史
- 2018 — Xilinx 在 Hot Chips 大会首次公开 AI Engine 架构
- 2019 — Versal ACAP 系列发布,AI Engine 正式商用
- 2022 — AMD $490 亿完成收购 Xilinx,AI Engine 纳入 AMD 全栈异构计算战略
- 2023 — Versal AI Edge 系列发布,AIE 进入边缘 AI 市场
- 2024-2025 — Versal Gen 2(5nm)发布,AIE-ML 升级版面向大模型推理优化
相关概念
- FPGA — AI Engine 与 FPGA 逻辑共驻于 Versal SoC
- Versal — AI Engine 宿主产品线
- Vitis AI — 配套 AI 模型部署工具链
- AI Tensor Blocks — Intel Altera 对应竞争方案
- FPSoC — Versal 是 FPSoC 的高端形态
∈ belongs_to::2-09-FPGA